Récupération des fichiers Excel avec les classements

Ces Scripts récupèrent les fichiers sur le site du VG pour les stocker localement sur le répertoire indiqué supra. Il traite les anomalies de malformations des fichiers OpenDocument (zip office Xlsx) et nettoie le Dataframe compilé Le DF compilé, nettoyé est sauvegardé dans un fichier Pickle Il est possible de ne pas exécuter ces cellules pour commencer le projet à partir du Chargement du fichier Pickle

Chargement du Dataset à partir du fichier Pickle (Eviter le chargement des 700 fichiers...)

Extraction des caractéristiques techniques de chacun des voiliers.

Rapprochement des données des voiliers avec celle des classements.

Corrélation et régression linéaire entre le classement (rang) et la vitesse utile (VMG) des voiliers.

Conclusion :

La régression du rang en fonction des trois types de vitesses (VMGx) montrent un corrélation négative avec le classement : plus la vitesse est grande, plus le classement est faible, ce qui semble logique. En revanche, on ne peut pas compter sur un R2 fort étant donné la variance des résidus... Il est illusoire de prédire le vainqueur avec cette régression, ni son classement final.

Impact de la présence d'un foil sur le classement et la vitesse des voiliers

Conclusion :

Les navires avec foils trustent le podium avec 6 bateaux sur les 10 premiers. Leur vitesse moyenne sur l'épreuve est supérieur de 1nd environ. Les Foils sont donc avantageux pour la vitesse moyenne et donc pour le classement.

Visualisation de la distance parcourue par voilier.

J'ai corrigé l'anomalie du Dataset donnant une distance parcourue de 2800 nautiques au départ de la course (premier timestamp du dataset pour l'ensemble des concurrents).

Plusieurs observations :

Ce graphique montre les sommes des distances entre classement par jour et par Skipper. Je note plusieurs choses.

  1. Les abandons sont bien visibles
  2. en début de course, il y a deux vagues 'sombres' intercalées avec deux vagues 'jaunes'. Il s'agit des premières tempêtes essuyées par les navigateurs. La deuxième vague sera d'ailleurs fatale à 4 skippers qui abandonneront aux environs de début décembre.
  3. on voit clairement l'arrêt technique de Béyou le 16 novembre(qui fera par la suite une très belle remontée)

Cartes avec les routes d'un ou plusieurs voiliers.

Conclusion :

Cartopy est difficile à coder par rapport à Plotly. Les animations sont complexes à coder et ne fonctionnent pas. Je décide donc de coder une animation avec les bibliothèques de Plotly, ce qui semble plus accessible. Je note la difficulté de se saisir des bibliothèques et de la philosophie associée. Par ailleurs, l'utilisation d'un Notebook n'est pas propice pour réaliser des interfaces permettant d'interagir avec les données dynamiquement.

Analyses de séries temporelles

Je propose de visualiser les rang en fonction du temps.

Conclusion : Que ce soit avec matplotlib ou plotly, il est facile de représenter des séries temporelles. On observe que les abandons se viualisent facilement (interruption de la série avant la fin de la course. Chaque croisement de courbe indique des phases de "disputes" pour le classement : les bateaux sont en principe proches. Cela me donne l'idée de chercher pour chaque skipper, la liste des skippers avec qui la course a été la plus disputée...

Un peu de statistiques :

Nous venons d'étudier la technique du Lasso avec Cross Validation en TP de Stat Je prends toutes les variables numériques issue du nettoyage des données. A partir de cette liste, je fais une selection des variables les plus pertinentes pour expliquer le rang

Nous obtenons dans l'ordre la liste des variables pertinentes pour expliquer le rang. Nous pouvons donc nous limiter à ce jeu de variables pour nos régressions ultérieures.